這陣子開始接觸機器學習與深度學習,主要目的是為了實作中文的自動語音辨識(Automatic Speech Recognition, ASR),打算補足這一塊領域的基本知識,所以想分享我在 Coursera 上面的深度學習課程筆記。
當然現在大家都推李宏毅老師的課程,我其實也有跟著 YT 上過約莫一半的課,不過他的作業我是有點吃力QQ,而前半部的數學部分或許對一些人來說有點吃力,筆者也是數學出生背景,想透過較為簡單的方式去表達相關的基本知識。
理所當然的接下來皆以 Python 為主要語言,模型的部分則是以發行 ChatGPT 的公司 —— OpenAI,所發行的 Whisper 去進行實作,另外也會依靠 Huggingface 強大的社群力量去試著增強 Whisper 中文語音辨識的效能。
fine-tuning 模型的過程遇到的各種繁雜的問題也會一一列出,應該能讓同在這條道路上努力的夥伴們節省一些時間:)
筆者過去已有 Python 基礎,也有過一些處理資料分析數據的經驗,因此本系列文章適合對 Python 已有基本能力的讀者(for loop, pandas, numpy, matplotlib, etc...)。